home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 21 / Cream of the Crop 21 (Terry Blount) (October 1996).iso / sound / rsynth22.zip / TEXT710.DOC < prev    next >
Text File  |  1994-09-19  |  50KB  |  836 lines

  1. A DESCRIPTION OF A COMPUTER-USABLE DICTIONARY FILE BASED ON
  2. THE OXFORD ADVANCED LEARNER'S DICTIONARY OF CURRENT ENGLISH
  3.  
  4. Roger Mitton,
  5. Department of Computer Science,
  6. Birkbeck College,
  7. University of London,
  8. Malet Street,
  9. London WC1E 7HX
  10.  
  11. June 1992  (supersedes the versions of March and Nov 1986)
  12.  
  13.  
  14.      In 1985-86 I produced a dictionary file called CUVOALD  (Computer
  15. Usable Version of the Oxford Advanced Learner's Dictionary).  This was
  16. a partial dictionary of English in computer-usable  form  -  "partial"
  17. because  each  entry  contained  only some of the information from the
  18. original  dictionary,  and  "computer-usable"  (rather   than   merely
  19. "computer-readable")  because  it  was in a form that made it easy for
  20. programs to access it.  A second file, called CUV2,  was  produced  at
  21. the  same time.  This was derived from CUVOALD and was the same except
  22. that it also contained all inflected forms explicitly, eg it contained
  23. "added",  "adding" and "adds" as well as "add".  I have now added some
  24. information to each entry and some more entries to CUV2, to produce  a
  25. new version of CUV2.  This document describes this new file.
  26.  
  27.      These files were derived  originally  from  the  Oxford  Advanced
  28. Learner's  Dictionary of Current English [1], third edition, published
  29. by the Oxford University Press, 1974, the machine-readable version  of
  30. which  is  available to researchers from the Oxford Text Archive.  The
  31. task of deriving them from the machine-readable OALDCE was carried out
  32. as  part  of  a research project, funded by the Leverhulme Trust, into
  33. spelling correction.  The more recent additions have been carried  out
  34. as  part  of my research as a lecturer in Computer Science at Birkbeck
  35. College.
  36.  
  37. THE FILE FORMAT
  38.  
  39.      CUV2 contains 70646  entries.   Each  entry  occupies  one  line.
  40. Samples  are  given at the end of this document.  The longest spelling
  41. is 23 characters; the longest pronunciation is also  23;  the  longest
  42. syntactic-tag  field  is  also  (coincidentally)  23;  the  number  of
  43. syllables is  just  one  character  ('1'  to  '9'),  and  the  longest
  44. verb-pattern  field  is  58.  The fields are padded with spaces to the
  45. lengths of the longest, ie 23, 23, 23, 1 and  58,  making  the  record
  46. length  128.   The spelling begins at position 1, the pronunciation at
  47. position 24, the syntactic-tag field at position  47,  the  number  of
  48. syllables  is  character  70,  and  the  verb-pattern  field begins at
  49. position 71.  The file is sorted in ASCII  sequence;  this  means,  of
  50. course, that the entries are not in the same order as in the OALDCE.
  51.  
  52.                                                                 Page 2
  53.  
  54.  
  55.  
  56. WHAT THE DICTIONARY CONTAINS
  57.  
  58.      Each entry consists of a spelling, a pronunciation, one  or  more
  59. syntactic  tags (parts-of-speech) with rarity flags, a syllable count,
  60. and a set of verb patterns for verbs.
  61.  
  62.      The first file derived from the OALDCE  (CUVOALD)  contained  all
  63. the headwords and subentries from the original dictionary - subentries
  64. are words like "abandonment" which comes under the headword  "abandon"
  65. -  except for a handful that contained funny characters (such as "Lsd"
  66. where the "L" was a pound sign).  Subentries were not included if they
  67. consisted  of  two  or three separate words that occurred individually
  68. elsewhere in the dictionary, such as "division bell" which comes under
  69. the   headword  "division",  except  when  the  combination  formed  a
  70. syntactic unit not immediately predictable from its  constituents,  eg
  71. "above  board",  which  is listed as an adverb.  To this list of about
  72. 35,000 entries, I added about 2,500 proper names -  common  forenames,
  73. British   towns   with   a   population   of  over  5,000,  countries,
  74. nationalities, states, counties and major  cities  of  the  world.   I
  75. would like to have added many more proper names, but I didn't have the
  76. time.
  77.  
  78.      The second version of the file (CUV2) contained all these entries
  79. plus  inflected  forms  making a total of about 68,000 entries.  Since
  80. 1986 I have made a number of corrections, added the rarity  flags  and
  81. the  syllable  counts  and  inserted about 2,000 new entries.  The new
  82. entries, nearly all of which were derived forms of  words  already  in
  83. the  dictionary,  were  selected from a list of several thousand words
  84. that occurred in the LOB Corpus[3] but were not in CUV2.  I also  made
  85. changes  to  existing  entries  where  these  were  implied by the new
  86. entries; for example, when adding  a  plural  form  of  a  word  whose
  87. existing  tag was "uncountable", it was necessary to change the tag of
  88. the  singular  form.   I  also  added  about  300  reasonably   common
  89. abbreviations (see note below).
  90.  
  91.      A number of words (ie spellings) have more than one entry in  the
  92. OALDCE,  eg "water 1" (noun) and "water 2" (verb).  In CUV2, each word
  93. has only one entry unless it  has  two  different  pronunciations,  eg
  94. "abuse"  (noun  and verb).  I have departed from this rule in the case
  95. of compound adjectives, such as "hard-working", which have a  slightly
  96. different   stress   pattern   depending  on  whether  they  are  used
  97. attributively ("she's a hard-working girl") or  predicatively  ("she's
  98. very hard-working").  These are entered only once; they generally have
  99. the attributive stress pattern except when the predicative one  seemed
  100. the  more natural.  (See also the note below on abbreviations.) I have
  101. also given only one entry to those words that  have  strong  and  weak
  102. forms  of  pronunciation, such as "am" (which can be pronounced &m, @m
  103. or m).  Generally it is the strong form that is entered.
  104.  
  105.      As regards the coverage  of  the  dictionary,  readers  might  be
  106. interested  in  a paper by Geoffrey Sampson [4] in which he analyses a
  107. set of words from a sample of the LOB Corpus[3] that were not in CUV2.
  108. The  recent  additions  should have gone some way to plugging the gaps
  109. that his study identified.
  110.  
  111.                                                                 Page 3
  112.  
  113.  
  114.  
  115. THE SPELLINGS
  116.  
  117.      The spelling contains the characters "A"  to  "Z",  "a"  to  "z",
  118. hyphen, apostrophe, space, umlaut or diaeresis (HEX 22), cedilla (3C),
  119. circumflex (5E),  acute  (5F),  grave  (60)  and  tilde  (7E).   These
  120. diacritic  characters  precede the letter that they mark, eg "se~nor".
  121. (There are also the characters "5" and "6" in "MI5" and "MI6".)
  122.  
  123. THE PRONUNCIATIONS
  124.  
  125.      The pronunciation uses a set of  characters  very  like  the  one
  126. adopted  by  the  Alvey Speech Club for representing IPA in ASCII [2].
  127. The system is as follows:
  128.  
  129.  i   as in  bead       N  as in  sing
  130.  I           bid       T         thin
  131.  e           bed       D         then
  132.  & (ampsnd)  bad       S         shed
  133.  A          bard       Z        beige
  134.  0 (zero)    cod      tS         etch
  135.  O (cap O)  cord      dZ         edge
  136.  U          good
  137.  u          food       p t k b d g
  138.  V           bud       m n f v s z
  139.  3 (three)  bird       r l w h j
  140.  @  "a" in about
  141.  
  142. eI   as in   day      R-linking (the sounding
  143. @U            go      of a /r/ at the end of a
  144. aI           eye      word when it is
  145. aU           cow      followed by a vowel)
  146. oI           boy      is marked R
  147. I@          beer      eg fAR for "far"
  148. e@          bare      (compare "far away"
  149. U@          tour      with "far beyond").
  150.  
  151. Primary stress: apostrophe eg @'baUt ("about")
  152. Secondary stress : comma eg ,&ntI'septIk
  153. Plus-sign as in "courtship" and "bookclub"
  154. 'kOt+Sip  'bUk+klVb
  155.  
  156. When the spelling contains a space and/or a
  157. hyphen, the pronunciation has one also, eg
  158. above board  @,bVv 'bOd   air-raid  'e@-reId
  159.  
  160. THE SYNTACTIC TAGS
  161.  
  162.      Every entry in the dictionary has  at  least  one  syntactic  tag
  163. (part-of-speech  code).   If  an  entry has more than one (eg "report"
  164. noun and verb), they are in ASCII order and separated  by  commas.   A
  165. code  consists  of three characters, the first two being the syntactic
  166. tag and the third a frequency class.  The first is one of the  capital
  167. letters "G" to "Z" (inclusive), which have the following meanings:
  168.  
  169.  
  170.                                                                 Page 4
  171.  
  172.  
  173. G  Anomalous verb
  174. H  Transitive verb
  175. I  Intransitive verb
  176. J  Both transitive and intransitive verb
  177.  
  178. K  Countable n